数据平台竞争加剧:Snowflake与Databricks的新竞争态势
核心内容
数据技术重心转向治理层,开放与专有格式并存增加复杂性。数据平台扩展至智能应用领域,面临多方竞争。数据管道整合难度上升,需创新解决方案。开放数据趋势给予客户更多选择权,但行业标准缺失导致发展前景不明。 数据管理面临安全性、治理与灵活性、创新的平衡挑战。企业优先考虑安全和治理,同时避免厂商锁定。组织内部存在数据整合与角色协调矛盾。部分企业保留本地数据部署,“数据创新者”倾向快速创新。近三成接受数据孤岛策略。企业需评估开源治理方案,制定符合自身需求的数据管理策略。 现代数据技术栈正经历重大转型,尤其在治理和语义层面。云基础设施和数据仓库已成熟,而开放表格格式(如Iceberg)正受到广泛关注。治理层成为新战略焦点,多家厂商竞相开发解决方案。语义层仍处于初期阶段,需要进一步发展。随着数据平台扩展,智能数据应用领域面临新竞争。开放格式为多家厂商提供了管理湖仓的机会,增加了灵活性,但开源目录仍不成熟。企业需谨慎应对这些变化,平衡治理需求与创新机遇。 数据技术栈转型预计持续3-5年,面临挑战与机遇。超大规模云服务商凭借AI/ML优势成为关键影响者。核心数据平台保持稳定,但工程和管道负载可能优化。成本因素影响决策,AI驱动的投资回报或改变格局。当前变动带来风险和机遇,有效应对者可创造新价值。超大规模云服务商创新和收购,以及新厂商向混合模型过渡将塑造竞争格局。企业需在复杂环境中把握要点,有效利用数据以引领创新。
-----
现代数据技术栈正经历重大变革,甚至可能彻底重构。
主要数据平台厂商在拓展业务范围时正在打破固有模式; 曾经互为竞争的数据平台厂商为扩大市场份额,进入了新的竞争领域; 市场和技术栈的这些变化给客户带来了机遇与挑战并存的局面。
数据技术栈焦点的转移
以云基础设施和计算存储分离为特征的现代数据技术栈正在关键方面演变,这将影响客户近期和中期的决策。我们深入分析了Databricks和Snowflake共同客户对开放表格格式、治理和生成式AI等话题的看法和未来规划。
关键发现
焦点转移:传统上以数据库管理系统为中心的焦点正向治理层转移。这一变化正引发行业变革,并将影响客户的支出模式。 治理层动态:经验丰富的老牌企业现在面临Unity和Polaris等新兴开源解决方案的挑战,这些新方案正在争夺市场主导地位。 开放与专有格式并存:组织和企业正在管理开放和专有表格格式的混合环境,这为治理解决方案增加了复杂性。这种混合包括云厂商治理、新兴开源治理和多层次目录解决方案。Iceberg似乎处于领先地位,但整体采用仍处于初期阶段。 市场扩张影响:数据平台正超越传统的指标、分析和仪表板,致力于构建智能数据应用和企业数字化表征。这需要与传统系统中的运营数据(如Salesforce、Oracle、SAP等)交互,从而创造新机遇的同时也带来竞争压力。 数据管道和协调层:数据管道在整合数据方面发挥关键作用,但其复杂性对许多客户来说是一大挑战。我们认为这种复杂性实际上在不断增加,这需要我们从新角度思考如何解决治理和开放格式问题。
总结
现代数据技术栈正经历重大变革,焦点正向治理层转移,数据平台厂商,特别是Databricks和Snowflake,正在努力拓展市场。这些平台向上发展的同时,面临着来自大型云服务商和传统软件厂商的新竞争。多种开放和专有数据及治理选择的复杂性凸显了数据协调的重要性。我们认为,组织和企业必须审慎应对这些变化,以充分发挥其数据资产的潜力,然而,由于缺乏明确标准,当前的发展路径仍不明朗。
观看George Gilbert与Salesforce的Muralidhar Krishnaprasad的对话,以更好地了解Databricks和Snowflake在向上发展过程中面临的日益激烈的竞争:构建以元数据为中心的智能应用平台。
Gilbert表示:“开放数据正在颠覆数据平台。现在,客户而非厂商掌控数据。Unity和Horizon/Polaris等运营目录是厂商瓶颈的临时解决方案。客户现在可以自由选择工具和引擎来挖掘数据价值。例如,Snowflake和Databricks都推出了多项功能,允许非技术用户通过大型语言模型(LLM)使用自然语言查询数据。但只要BI工具厂商在正式定义数据方面做得更好,最终用户通过其BI工具或第三方语义层将获得更佳效果。”
数据治理中的优先级冲突和角色分歧
我们的调查基于105个Databricks和Snowflake联合客户的数据,旨在揭示数据管理中关于安全性、治理和工具选择的普遍观点。
关键发现
安全性和治理是基础:绝大多数受访者(安全性86%,治理70%)将安全性和治理列为首要考虑。我们认为,这种倾向更有利于像Snowflake这样的集成平台,它们要求客户将数据纳入Snowflake以利用最全面的治理解决方案。 避免锁定:相当一部分人专注于避免厂商锁定,这与Databricks的开源理念更为一致。 整合与灵活性:45%的受访者表示愿意将数据整合到单一技术栈中,即使牺牲灵活性。同时,其他人则优先考虑分析师自由选择工具,突显了组织和企业内部的基本矛盾。 角色协调挑战:调查数据强调了组织和企业内不同角色之间的内部冲突,每个角色都有不同的优先事项。通过治理和重组来协调这些角色是一项关键但具有挑战性的任务。我们认为,缺乏协调将使公司面临更大风险。 本地部署与云端:39%的受访者计划在未来一年内将核心知识产权数据保留在本地,而其他人则倡导强大的数据仓库系统,以最大限度地减少对开放表格格式的需求。 数据创新者与安全性:一部分被称为“数据创新者”的受访者优先考虑快速创新而非严格的数据安全性和治理。值得注意的是,这些数据创新者最有可能从Snowflake转向Databricks。
总结
调查和我们的分析揭示了一个充满优先级冲突和角色分歧的格局,使得实现一致的数据治理变得复杂。组织和企业必须在安全性和治理需求与灵活性和创新愿望之间寻求平衡。
随着Snowflake和Databricks等数据平台的持续发展,行业必须直面这些挑战,以实现协调和有效的数据管理策略。组织和企业必须评估开源治理解决方案的质量、效率和成熟度,并制定与其现有治理方法一致的策略。
调查中近30%的受访者表示对管理其数据孤岛感到满意。我们通常认为这种方法不利于将数据置于运营核心,但它可能为各个业务单元带来快速上市的优势,并可能仍然是一个可行的策略。
现代数据技术栈的演进与分化
现代数据技术栈正在迅速演变,带来了新的复杂性和竞争态势。尽管云基础设施和数据仓库等基础元素已经确立,但更高层次是重大变革和创新发生的领域。以下几点总结了我们对数据技术栈演进的思考及其预示的变化。
关键发现
云基础设施:AWS树立了云基础设施的标杆。Google、Microsoft和Oracle等竞争对手通过借鉴AWS的优缺点,在基础设施层面制定了差异化战略。总的来说,这一层的技术栈相对成熟,且被充分理解。 数据仓储和管道:Snowflake已在云数据库管理系统中确立领导地位,而Databricks则在数据管道领域占据主导,主要使用Spark等工具。 开放表格格式:尽管目前仍处于初步发展阶段,但业界对于采用开放表格格式,特别是Iceberg的兴趣正日益增长,有高达70%的受访者表示他们正在向这种格式过渡。 治理层:治理层正成为新的战略焦点,超越传统的数据库管理系统。我们认为主要厂商正试图将其打造成新的“护城河”。这包括Databricks的Unity Catalog和Snowflake的Polaris,它们必须与Google、Microsoft、AWS、Informatica、Collibra、Alation等公司的各种解决方案共存。治理格局仍高度分散,存在大量解决方案和复杂的合作伙伴关系及标准生态系统。此外,像Microsoft Purview这样的解决方案正试图成为“目录中的目录”,将治理之争留给其他厂商。 语义层:语义层涉及数据协调以支持创建业务实体的数字表征。该层仍处于初期阶段,需要大量开发才能达到成熟和功能完备的状态。我们认为,完全实现这一层仍需数年时间,但行业正在尝试创建这种协调能力。 智能数据应用和产品:随着数据平台扩展其总潜在市场(TAM),技术栈的上层(即数据产品、代理和智能应用)正面临新的竞争。Palantir、Salesforce和Microsoft等厂商正在推进这一领域的能力,创建丰富的元数据和统一的数据环境。随着Databricks和Snowflake扩展其业务愿景,它们越来越多地与包含业务逻辑和关键数据的传统软件公司产品相遇。能够连接到这些数据对于构建智能数据应用至关重要,而这些传统公司不太可能轻易让出市场给Databricks和Snowflake。
总结
现代数据技术栈正经历重大转型,特别是在治理和语义层面,呈现出日益增多的分化和复杂性。虽然基础元素已经确立,但随着Snowflake和Databricks等公司扩展其能力并在技术栈的上层面临新的挑战,竞争格局正在加剧。组织和企业必须审慎应对这些变化,利用强健的治理框架和战略合作伙伴关系来充分发挥其数据生态系统的潜力。
SanjMo的首席顾问Sanjeev Mohan补充说,开放表格格式的兴起不仅为Snowflake和Databricks,也为Fivetran、Confluent和Salesforce等许多其他厂商提供了管理湖仓的机会。“现在,客户无需将数据转移至专有格式,可以采用任意组合的计算引擎来满足其数据工程、分析和AI需求,”他说。“例如,对于某些用例,客户可以使用DuckDB在对象存储上分析数据,对于其他用例,则使用Snowflake。这种灵活性可以降低最终用户的成本。”
他补充道,“开源目录在表格格式之上是另一回事。虽然开源目录的概念很吸引人,但目前的产品还未准备好投入实际使用。这些目录仍处于早期开发阶段,功能有限。在作出承诺之前请仔细审查细则。”
未来发展趋势和超大规模云服务商的角色
数据格局的转型是一个渐进的过程。正如Molham Aref和Zhamak Dehghani等行业领袖所指出的,这种演变预计将持续三到五年,期间会遇到诸多挑战和缺失环节。此外,我们相信超大规模云服务商凭借其资源和先进的AI/ML能力,将在塑造这一未来方面发挥关键作用。
关键发现
三到五年的进程:构建成熟的数据治理框架是一个漫长而复杂的过程。关键行业人士预计未来几年将会有显著发展,但也认识到当前存在的差距和挑战。 超大规模云服务商作为主要厂商:超过三分之一的Databricks和Snowflake客户认可超大规模云服务商在AI/ML方面的强大能力,并表示倾向于这一方向。这使得他们成为数据平台生态系统中的重要影响者和潜在颠覆者。 数据平台的黏性:核心数据平台仍然根深蒂固,难以轻易替换。虽然数据工程和管道工作负载可能会有所优化,但核心功能可能会保持稳定。 成本和投资回报率动态:目前成本因素影响决策,但AI驱动的投资回报率的出现可能会显著改变格局,推动进一步的投资和采用。 变革中的机遇:当前的变动状态既带来了风险也带来了机遇。那些能够有效应对这一复杂局面的公司可以抓住新的市场机会,创造显著价值。 未来展望:数据领域的持续演变将继续成为即将到来的行业讨论的焦点。超大规模云服务商的创新和收购,以及新厂商从本地部署到混合模型的过渡,将塑造竞争格局。
总结
我们认为,向全新现代数据技术栈过渡的进程仍在进行中,充满了机遇与风险。超大规模云服务商凭借其先进的能力,将与Databricks、Snowflake及其各自的生态系统一道,在这一演变中发挥关键作用。
核心数据平台的稳固地位,加上成本动态的变化和AI驱动的投资回报率潜力,将影响客户的战略决策并塑造支出模式。随着行业在这一日益复杂的格局中前行,那些能够在纷繁中把握要点并有效利用数据的企业将成为下一阶段创新的引领者。
Source:The emerging data stack brings opportunities and risk for buyers and sellers;Dave Vellante,Rob Strechay; AUGUST 04 2024
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)